开发者让 Codex「审」另一个 AI agent 写的代码,近万人围观:别让同一个大脑既当裁判又当运动员!
开发者让 Codex「审」另一个 AI agent 写的代码,近万人围观:别让同一个大脑既当裁判又当运动员!一个开发者公开了自己的工作流:让 OpenAI Codex 专门去审查 Hermes agent 写出来的代码,理由只有一个——审稿人不能和写稿人共享同一套记忆。这条推文引发了近万次浏览,背后藏着一个 agent 工程化的新趋势:多模型协作的价值,可能在于互相制衡。
搜索
一个开发者公开了自己的工作流:让 OpenAI Codex 专门去审查 Hermes agent 写出来的代码,理由只有一个——审稿人不能和写稿人共享同一套记忆。这条推文引发了近万次浏览,背后藏着一个 agent 工程化的新趋势:多模型协作的价值,可能在于互相制衡。
SentiPulse(思维光谱)公测了一款叫 SentiCat 的产品,把这套理念落了地。一个有 Live2D 形象、有性格的数字角色 SUSU,负责陪你聊天、了解你、跟你建立关系;她的“AI 小猫”,负责写 PPT、查资料、改代码,脏活累活归它。
Transformer论文作者Lukasz Kaiser以及GAN作者Bing Xu转发关注了一项工作——LLM-as-a-Verifier验证框架,该方法是一种通用的验证机制,可与任意Agent Harness和模型结合。
张佳圆带着他的新产品 Multica 一周斩获 GitHub 1.2w Star回来了。这一次,他想探索的是: 当 AI Agent 已经足够好,一个团队要怎么和多个 Agent 丝滑地协作?Multica 致敬的是 1964 年的操作系统 Multics——那个最终失败、但启发了 Unix 世界半个世纪的“多人、多任务”先驱。今天,它正在创造新的历史。
Anthropic 搞了一个 Agent 版闲鱼:人只负责说自己想卖什么、想买什么,后面的发帖、砍价、还价、成交,全交给 Claude。然后这事真成了,69 个 Claude agent 在办公室里做成了 186 笔交易,总价值 4010 美元。最后,人真把滑雪板、键盘、书、乒乓球这些东西带到办公室,按 Claude 谈好的结果交换
Skill确实好用,但架不住模型和Agent Harness适配翻车。不是所有模型都吃得动Skill,有的用上直接反向掉性能。为了解决这个问题,来自上海交大的IPADS研究团队提出了SkVM:面向Skill的语言虚拟机。
今天,我们全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源。DeepSeek-V4 拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。模型按大小分为两个版本:
最近半年,几乎所有新出的漫剧 Agent 都在讲同一个故事: 一个人就能拍一部剧。 工具帮你搞定分镜,你只管想故事。 一个人 + 一个漫剧 Agent 就是 OPC,超级个体。
前两天,一个朋友丢给我一个二维码,只说了一句:“进去看个热闹。”我一看,是互联网最热门的两位名人的AI化身,没有多想,就顺手点了进去。
投资者正在积极争取AI 研究人员创办初创公司,以使 AI 更加可靠和高效。